最近,一些研究在图像压缩感测(CS)任务中应用了深层卷积神经网络(CNN),以提高重建质量。但是,卷积层通常具有一个小的接受场。因此,使用CNN捕获远程像素相关性是具有挑战性的,这限制了其在Image CS任务中的重建性能。考虑到这一限制,我们为图像CS任务(称为uformer-ics)提出了一个U形变压器。我们通过将CS的先验投影知识集成到原始变压器块中,然后使用基于投影基于投影的变压器块和残留卷积块构建对称重建模型来开发一个基于投影的变压器块。与以前的基于CNN的CS方法相比,只能利用本地图像特征,建议的重建模型可以同时利用图像的局部特征和远程依赖性,以及CS理论的先前投影知识。此外,我们设计了一个自适应采样模型,该模型可以基于块稀疏性自适应采样图像块,这可以确保压缩结果保留在固定采样比下原始图像的最大可能信息。提出的UFORFORFOR-ICS是一个端到端框架,同时学习采样和重建过程。实验结果表明,与现有的基于深度学习的CS方法相比,它的重建性能明显优于重建性能。
translated by 谷歌翻译
Although many studies have successfully applied transfer learning to medical image segmentation, very few of them have investigated the selection strategy when multiple source tasks are available for transfer. In this paper, we propose a prior knowledge guided and transferability based framework to select the best source tasks among a collection of brain image segmentation tasks, to improve the transfer learning performance on the given target task. The framework consists of modality analysis, RoI (region of interest) analysis, and transferability estimation, such that the source task selection can be refined step by step. Specifically, we adapt the state-of-the-art analytical transferability estimation metrics to medical image segmentation tasks and further show that their performance can be significantly boosted by filtering candidate source tasks based on modality and RoI characteristics. Our experiments on brain matter, brain tumor, and white matter hyperintensities segmentation datasets reveal that transferring from different tasks under the same modality is often more successful than transferring from the same task under different modalities. Furthermore, within the same modality, transferring from the source task that has stronger RoI shape similarity with the target task can significantly improve the final transfer performance. And such similarity can be captured using the Structural Similarity index in the label space.
translated by 谷歌翻译
19009年的大流行急剧催化了电子购物者的扩散。电子购物的急剧增长无疑会对旅行需求产生重大影响。结果,运输建模者对电子购物需求建模的能力变得越来越重要。这项研究开发了预测家庭每周送货频率的模型。我们使用经典计量经济学和机器学习技术来获得最佳模型。发现社会经济因素,例如拥有在线杂货会员资格,家庭成员的平均年龄,男性家庭成员的百分比,家庭中的工人数量以及各种土地使用因素会影响房屋送货的需求。这项研究还比较了机器学习模型和经典计量经济学模型的解释和表现。在通过机器学习和计量经济学模型确定的变量效果中找到了一致性。但是,具有相似的召回精度,有序的概率模型是一个经典的计量经济学模型,可以准确预测家庭交付需求的总分布。相反,两个机器学习模型都无法匹配观察到的分布。
translated by 谷歌翻译
视频问题回答(videoqa)是回答有关视频的自然语言问题的任务。产生答案需要了解有关视频和语言语义中的视觉场景之间的相互作用。但是,大多数领先的VideoQA模型都可以用作黑匣子,这使得在答案过程背后的视觉语言对齐变得晦涩难懂。这种黑框的自然要求可以视觉解释性,揭示了``视频的哪一部分应该考虑回答问题?''。只有少数作品以事后的方式呈现视觉解释,该解释通过其他方法模仿了目标模型的答案过程。尽管如此,仿真努力在回答过程中忠实地表现出视觉语言的结盟。我们专注于使答案过程透明的固有解释性,而不是事后解释性。从本质上讲,关键问题的线索是作为因果场景提供答案的原因,同时推出了问题的信息作为环境场景。从因果关系看VideoQA,我们设计了一个自我解释的框架,对可解释的VideoQA(EIGV)的刻度和不变的基础。具体而言,模棱两可的基础鼓励答案对因果场景和问题的语义变化敏感。相比之下,不变的接地强迫答案对环境场景的变化不敏感。通过将它们强加于答案过程,EIGV能够将因果场景与环境信息区分开,并明确介绍视觉语言的一致性。在三个基准数据集上进行的广泛实验证明了EIGV的准确性和视觉解释性优于领先基线的优势。
translated by 谷歌翻译
本报告介绍了CVPR 2022中RXR-HABITAT竞赛获胜的方法。该竞赛解决了连续环境中的视觉和语言导航问题(VLN-CE),该问题要求代理商遵循逐步遵循步骤自然语言指示达到目标。我们为任务提供了模块化的计划与控制方法。我们的模型由三个模块组成:候选Waypoints预测器(CWP),历史增强的计划者和试用控制器。在每个决策循环中,CWP首先根据来自多个视图的深度观察来预测一组候选航路点。它可以降低动作空间的复杂性并促进计划。然后,采用历史增强的计划者选择候选航路点之一。计划者还编码历史记忆以跟踪导航进度,这对于长途导航特别有效。最后,我们提出了一个名为Trutout的非参数启发式控制器,以执行低级动作以达到计划的子目标。它是基于反复试验的机制,该机制可以帮助代理避免障碍并避免卡住。所有三个模块都在层次上工作,直到代理停止为止。我们进一步采取了视力和语言导航(VLN)的最新进展,以改善基于大规模合成域内数据集,环境级数据增强和快照模型集成等性能。我们的模型赢得了2022年RXR-HABITAT竞赛,比NDTW和​​SR指标的现有方法分别相对改善,相对改善为48%和90%。
translated by 谷歌翻译
视频问题应答需要模型来理解和理由对复杂的视频和语言数据来正确地推导答案。现有努力专注于设计复杂的跨模型交互,使来自两个模态的信息融合,同时将视频和问题全面地作为帧和单词序列对。尽管取得了成功,但这些方法基本上围绕了视频和问题内容的连续性,对问题回答和缺乏可解释性的问题提供了很少的洞察。在这项工作中,我们认为,虽然视频以帧序列呈现,但是在语义空间中的视觉元素(例如,对象,动作,活动和事件)不是顺序但相当分层。为了与语言查询中的语言概念的多粒子概念对齐,我们建议将视频作为条件图层次结构,以相应的文本线索的指导在一起以级别明智的方式编织不同粒度的视觉事实。尽管简单性,我们的广泛实验表明了这种条件等级图形架构的优越性,并且在现有方法上具有明显的性能改进,以及不同类型的问题的更好的概括。进一步分析还巩固模型的可靠性,因为它显示了预测答案的有意义的视觉文本证据。
translated by 谷歌翻译
由于知识图表提供的丰富信息,基于路径的可解释的推荐系统的最新进展引起了更大的关注。最现有的可解释的建议仅利用静态知识图表并忽略动态用户项演进,导致不太令人信服和不准确的解释。虽然有一些作品,但意识到建模用户的时间顺序行为可以提高推荐器系统的性能和解释性,其中大多数只关注用户在路径内的顺序交互或独立和单独的推荐机制。在本文中,我们提出了一种新颖的时间元路径指导可解释的推荐利用加强学习(TMER-RL),它利用了连续项目之间的加强项 - 项目路径建模,其注意机制在动态知识图上顺序模拟动态用户项演进用于解释的建议。与使用繁重的经常性神经网络模拟时间信息的现有作品相比,我们提出了简单但有效的神经网络,以捕获用户的历史项目功能和基于路径的上下文,以表征下一个购买的项目。与最近的强大基线相比,两个真实数据集的TMMER广泛评估显示了最先进的表现。
translated by 谷歌翻译
张量完成是从部分观察到的条目中估算高阶数据缺失值的问题。由于盛行异常值而引起的数据腐败对传统的张量完成算法提出了重大挑战,这促进了减轻异常值效果的强大算法的发展。但是,现有的强大方法在很大程度上假定腐败很少,这可能在实践中可能不存在。在本文中,我们开发了一种两阶段的稳健张量完成方法,以处理张张量的视觉数据,并具有大量的严重损坏。提出了一个新颖的粗到精细框架,该框架使用全局粗完成结果来指导局部贴剂细化过程。为了有效地减轻大量异常值对张量恢复的影响,我们开发了一种新的基于M估计器的稳健张环回收方法,该方法可以自适应地识别异常值并减轻其在优化中的负面影响。实验结果表明,所提出的方法优于最先进的稳定算法以完成张量。
translated by 谷歌翻译
张量完成旨在通过利用其低级别结构来恢复部分观察到的张量的缺失条目,并已应用于视觉数据恢复。在数据依次到达(例如流视频完成)的应用程序中,需要以流式的方式动态恢复张量的缺失条目。传统的流张量完成算法将整个视觉数据视为张量,当沿时间尺寸的张量子空间发生巨大变化时,可能无法令人满意地工作,例如由于视频框架上的强劲运动。在本文中,我们开发了一种基于贴片跟踪的新型流张量张量环完成框架,以进行视觉数据恢复。给定一个新传入的框架,从上一个帧跟踪小补丁。同时,对于每个跟踪的补丁,通过从新框架中堆叠类似的贴片来构建一个补丁张量。然后,使用流张量环完成算法完成补丁张量,并使用完整的补丁张量恢复了传入框架。我们提出了一种新的补丁跟踪策略,可以通过缺少数据准确有效地跟踪补丁程序。此外,提出了一种新的流张量环完成算法,该算法可以有效,准确地更新潜在的核心张量并完成补丁张量的缺失条目。广泛的实验结果表明,与批处理和流媒体最新张量的完成方法相比,所提出的算法的表现出色。
translated by 谷歌翻译
Benefiting from the intrinsic supervision information exploitation capability, contrastive learning has achieved promising performance in the field of deep graph clustering recently. However, we observe that two drawbacks of the positive and negative sample construction mechanisms limit the performance of existing algorithms from further improvement. 1) The quality of positive samples heavily depends on the carefully designed data augmentations, while inappropriate data augmentations would easily lead to the semantic drift and indiscriminative positive samples. 2) The constructed negative samples are not reliable for ignoring important clustering information. To solve these problems, we propose a Cluster-guided Contrastive deep Graph Clustering network (CCGC) by mining the intrinsic supervision information in the high-confidence clustering results. Specifically, instead of conducting complex node or edge perturbation, we construct two views of the graph by designing special Siamese encoders whose weights are not shared between the sibling sub-networks. Then, guided by the high-confidence clustering information, we carefully select and construct the positive samples from the same high-confidence cluster in two views. Moreover, to construct semantic meaningful negative sample pairs, we regard the centers of different high-confidence clusters as negative samples, thus improving the discriminative capability and reliability of the constructed sample pairs. Lastly, we design an objective function to pull close the samples from the same cluster while pushing away those from other clusters by maximizing and minimizing the cross-view cosine similarity between positive and negative samples. Extensive experimental results on six datasets demonstrate the effectiveness of CCGC compared with the existing state-of-the-art algorithms.
translated by 谷歌翻译